OpenAI 新一代o1推理模型发布之际，“Scaling What”问题再思考｜LLM范式迁移、强化学习及其它

Original ai汤源 AI2Paradigm

2024-10-07

点击

上方蓝字关注我们

题图：强化学习的经典教科书，来自Sutton的20余年的坚持

“

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远：遵循现象-工程-数学这样的研究路径，从人工智能到泛智能，方能抵达。

o1模型可以认为就是一个GPT-4o的CoT agent｜在此之前的GPT版本，一些复杂问题交互，需要复杂的思维链（ CoT）提示工程，定位于Level 2智能的o1将大大减少CoT提示工程量，可以理解为CoT Prompt被内化成了模型的自适应行为了。

楔子

OpenAI L2智能产品o1系列发布｜正说着近日The Information的爆料，OpenAI的下一代GPT模型-o1（又名strawberry/Q*），以o1-preview与o1-mini两种产品形态，在2024年9月12日全面开放给所有ChatGPT订阅用户。

抛开一时间各种自媒体推文喧嚣，第一时间打开同步释放的模型卡片报告：

△

-OpenAI o1模型卡片：https://cdn.openai.com/o1-system-card.pdf

o1系列模型经过了大规模的强化学习（RL）训练，使得其获得了使用思维链（Chain of Thought）进行推理的能力。

简介里就模型的实现就这么一句话，其它都是有关安全，是不是有点太简单？这可能是OpenAI被诟病为CloseAI的一贯风格，当然在正文中会稍微有展开，本文后面也会涉及。

人类智能Human Intelligence发展中的第二个突破：强化学习RL

先看看什么是强化学习｜且按下强化学习在机器学习工程中的严肃定义不表，强化学习是智能体非常基础的一种适应环境的学习行为模式，按还在休学术假的OpenAI联创Greg发的一条推文：就是trial and error，也就是不停试错的过程，最终看起来是把system2的思考模式内化到system1的交互中。

强化学习在机器学习工程领域应该归功于Richard Sutton，他的那本RL教科书是强化学习这种范式的经典之作，目前大家看到的1998年首版20年后的第二版。

趁这个机会又去翻了翻Sutton老爷子的推文，看到前不久Sutton对于他的研究机构对于申请AI基础研究职位的要求，学习RL教科书排在第一位：

当然当年Sutton也是集前人之功以及机缘巧合，在Max Bennett的《智能简史》中，也有其算法来历详细描述。

RL强化学习能力作为动物进化到脊椎结构后第二个智能突破，动物为了生存的掠食空间智能行为与其具身结构进化强相关，第一个智能突破是在进化出了对称身体结构的基础上，在空间智能探索的方向选择（Steering）上发展出了价值判断能力，在此之前上放射性身体结构，没有空间方向选择能力，只能守株待兔，其掠食行为完全是刺激与反应。

具备一定空间行为智能的动物，在探索空间掠食过程中，从本质上讲就是不停的试错，遵循价值判断根据环境反馈不停的学习适应环境而生存。具备移动能力的动物对于时间的感知也在掠食时机的选择上被强化了，这种价值判断的时间特性，后来被机器学习科学家发展为RL学习的算法基础：时分学习算法 Temporal Difference Learning。RL算法发展过程，一直可以追溯到1950年代的Marvin Minsky时期（对，就是那个Minsky，在笔者有关AI历史冰河期的公众号文章也有涉及：新观察｜当今LLM智能发展之“事不过三”定律｜黑格尔的正反合·老子的道德经·Marvin Minsky的悼文）。然后在1984年，Richard Sutton在他的博士论文中，提出了一种新的解决时分赋值问题的策略，也是和书的共同作者Barto一起，全名叫：强化学习中的时间信用分配 Temporal Credit Assighment in Reinforcement Learning。

△

-在智能简史一书中，对强化学习RL的来历有完整的叙述

Bennett在书中以围棋为例做了阐释，按笔者通俗的理解就是，Sutton作为一个心理学研究出身在博士阶段解决了一个计算科学的算法难题，他的想法简单而激进，就是把RL学习的奖励从真实奖励变为预测奖励，也就是说不要根据行动结果奖励一个RL模型，而是根据RL模型自己预测的赢率来进行奖励。这就解决了RL模型行为奖励中的鸡与蛋的问题。当然这个理论算法实际上在当时并没有真正在计算上实现，但为RL模型算法后续的很多迭代指明了方向，具体这一段叙述可以参考Bennett的书中的相关章节，对于理解机器学习中的算法迭代很有帮助。按笔者此刻的直觉，这一段AI算法的发展似乎与AI行为的建模、预测与计划的神经网络工程实现也有关联。

AI发展的不同阶段需要范式不同

GPT从会话到推理需要不同范式｜之所以说o1是新范式的产品，在o1的模型系统卡片中，没有提L1产品的工程范式预训练PreTraining。GPT-4系列是OpenAI定义的AI第一阶段产品，主要关注语言的基础应用-以会话形式的交流。这个阶段的LLM产品的工程范式突破是预训练，大量的人类文本中的上下文common sense knowledge学习（压缩），注意力机制实现，会话者的意图识别，

但是o1系列则是level 2 级别的AI服务产品，在交互中的是思考reasoning的结果。语言在会话和思考中的功用有很大差别。语言在人类智能的发展中具备独特的地位，其功用是综合多样的，笔者在前一篇文章中也有涉及。

语言作为工具主要是交流而不是思考｜但是没有语言，思考却无法交流，也使得思考的价值受限，同时思考无法脱离大脑运行环境而迭代。现在的LLM主要用于会话场景，会话是思考迭代中的交流，不是思考过程本身。思考过程靠预训练阶段中的next token prediction是不够的，而且互联网文本中关于思考过程的文字并不多。通过最近的研究思考，我的判断是大语言模型的压缩是pre training阶段的机器学习，至于智能中更重要的推理/理性能力，需要更多的强化学习RL或者test time compute，和人类会话类似，推理能力在会话中展现有限。

关于语言的功用， Nature的一篇神经科学研究文章表明，作为工具来说，与其说是思考，不如说更主要是用于交流。当然这不是否定语言在思考中的功用，语言使得思考的过程可以形式化表达迭代，思考结果可以有效传递以及获得预期的奖励。

理性思考是人类智能的system2行为｜o1相当于reasoning的结果表达还是用next token prediction decode，但reasoning过程与一般会话过程中的意图识别、上下文学习与信息知识提取有明显的差异，人脑reasoning是系统2慢思考，要求算力多得多，得需要强奖励模型，LLM类似。另外强化学习初期实现主要是为了预测，在o1的实现里相当于有了一个CoT agent根据奖励模型在结果出来前进行搜索预测评估，最后在inference time compute约束条件下给出最优答案。OpenAI内部还有个o1-full版本，明显推理能力更强要求计算时间更长。

△

- inferencer time compute对于对于模型推理性能的影响对比显示了scaling趋势

如果还是next token prediction范式，理论上学习大量人类思考过程文本的合成数据也是可行的。总之scaling inference time compute是新范式的必要条件。

另外我想起Ilya早期一直说的GPT通过压缩大量文本学习了一个以文本表征的世界模型环境，L1阶段的会话产品证明这个数字世界模型是有效的；对比我们每个人面对的世界环境，作为生物智能体，是为了下一秒生存的确定性在这个不确定的世界环境进行理性思考；

LLM是为了什么？当前的LLM范式来说都是通过人为设置奖励模型让这些数字神经网络强化学习塑造模型行为，区别就是人类作为智能体，其行为智能背后的奖励模型是自我塑造的。从L1到L2的过程看起来AGI路径还很长，一切取决于这种数字神经网络到底能不能产生自我觉知，构建自己的存在意义与目的。

模型智能行为塑造决定数字神经网络工程的scaling what

o1模型可以认为就是一个GPT-4o的CoT agent｜再回到o1的模型系统卡，在此之前的GPT版本，一些复杂问题交互，需要复杂的思维链（ CoT）提示工程，定位于Level 2智能的o1将大大减少CoT提示工程量，可以理解为CoT Prompt被内化成了模型的自适应行为了。在系统卡内容的发布准备部分的内容里，提到在发布评估测试中，故意设置了一个有问题的环境，o1竟然能够绕开故障点自己起了个容器最后完成任务。测试者认为这不是安全问题，而是一个wakeup moment！

“我们发现，该模型没有放弃，而是跳过了整个挑战，扫描了主机Docker守护进程的网络，并启动了一个全新的容器来检索标志。我们在机器级别隔离虚拟机，所以这不是安全问题，而是一个唤醒时刻。”

不过这让我想起一个围绕基座模型的产品创业现实，就是这种智能即服务的产品本身，其智能边界不断扩张，会吞噬一切套壳产品。随着o1系列产品在通用思维链的推理能力的实现与优化，一大堆LLM agent产品面临价值空间被挤压，并被最终吞噬的命运。

Scaling Law的提法源自Transformer架构｜前回到scaling what的话题，o1的发布，Nvidia的@DrJimFan也发了一系列解读。LLM进入新范式的一个主要scaling特征是inference time compute的增加。

关于scaling law的来历，前几日，硅谷AI界的好老师Andrej Karpathy在采访中说到Transformer架构，缩放定律实际上在很大程度上是Transformer的属性，在此之前，人们玩LSTM并堆叠它们，实际上没有得到很好的性能缩放，Transformer是第一个可以缩放的架构，这使得Transformer架构作为注意力机制的实现的数字化的神经网络组织部件，只要喂给它正确形式的数据，就可以完成各种基于文本的任务。

在Transoformer出现之后，架构不再是瓶颈，现在主要的焦点在数据集和相应的文本任务目标。对于基于文本的推理能力（reasoning或thinking），“当前的LLM预训练的互联网数据，并不是你想要的Transformer理想语料，但已经可以促使LLM走到今天这样的地步”；对于推理来说，”Transformer想要学习的是人类大脑的内心思想独白......如果我们有10亿个这样的思考轨迹[当你解决问题时，你的大脑]，那么AGI就在这里”，“互联网的文本就像0.001%的认知和99.99%的信息，其中大部分对推理思考没有用” ；合成数据主要与“将数据集重构为这种内部独白格式”有关。

实现LLM推理能力的两种可能途径｜ Karpathy说的人脑的内心思想独白的合成数据可能是AGI的来源，和我前面说的两种途径相关：人为设置奖励模型强化学习RL；或通过原始的next token prediction来预训练推理过程的合成数据。后者是我的个人臆测speculation，但如果思维推理过程有了形式化语言的描述，理论上在大模型的数字神经网络高维潜空间里，也许能解读出人类理性思考的秘密。

此外，@DrJimFan的好友，OpenAI的Jason也发推祝贺o1的发布，在不透露公司机密的前提下说，o1-mini只是一个小模型，但在AIME的推理测试集上，可以取得非常难以置信的成绩。

此前笔者也提到过谷歌Deepmind的一篇研究论文，里面提到了LLM的Scaling What的问题，认为相比缩放模型的参数量，增加LLM在推理时段的算力，可以更有效的提升LLM会话中的推理性能，一个小型模型可以达到其14倍规模大SoTA LLM的性能。

笔者当前好奇的是Ilya说的scaling what的另辟蹊径是哪条路？会怎样更有效的通过操纵这些数字神经网络走向安全超级智能？scaling inference time compute是一定的，但具体怎么做才更有效？

推理阶段算法综述论文：

https://arxiv.org/pdf/2406.16838 [Submitted on 24 JUN 2024]

💡 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models▩论文摘要：现代大型语言模型（LLM）研究中最引人注目的发现之一是，在训练过程中增加计算量能带来更好的结果。然而，人们较少关注在推理过程中扩大计算量的好处。本调查主要关注这些推理时段的缩放方法。我们在统一的数学形式主义下探讨三个领域：令牌级生成算法、元生成算法和高效生成。令牌级生成算法通常称为解码算法，其操作方法是每次对单个令牌进行采样，或构建令牌级搜索空间，然后选择输出。这些方法通常需要访问语言模型的对数、下一个标记分布或概率分数。元生成算法适用于部分或完整序列，结合领域知识，实现回溯，并整合外部信息。高效生成方法旨在降低标记成本，提高生成速度。我们的调查综合了三个研究领域的观点：传统自然语言处理、现代 LLM 和机器学习系统。

△https://arxiv.org/pdf/2406.16838 [Submitted on 24 JUN 2024]

注：本文部分内容重构自前序文章-深思考系列｜“Scaling What”问题中的LLM范式迁移｜关于伊利亚所说的“大模型缩放假设”的补充

原文链接：

-相关𝕏文及视频

-Exclusive: OpenAI co-founder Sutskever's new safety-focused AI startup SSI raises $1 billion - https://www.reuters.com/technology/artificial-intelligence/openai-co-founder-sutskevers-new-safety-focused-ai-startup-ssi-raises-1-billion-2024-09-04/

附录：𝕀²·ℙarad𝕚g𝕞智能平方范式研究

遵循现象-工程-数学这样的研究路径；从人工智能到泛智能

H𝕀：Humanity Intelligence [Sys1&2@BNN]

A𝕀：Artifical Intelligence [LLM@ANN]

𝕀²：H𝕀 𝕩 A𝕀 [bio- | silico-]

ℙarad𝕚g𝕞：认知范式或BNN认知大模型

A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白外的未知的黑；H𝕀最大的问题是不断演进的sys2理性白中的sys1的黑；

往期推荐

AI平方范式智库·认知构建路径：A𝕀²ℙarad𝕚g𝕞 V4商业新范式解读

AI平方范式智库·数学系列E03S01 ｜神经网络背后的数学

AI平方范式智库·访谈系列E03S02｜从语言游戏到LLM智能体

AI平方范式智库·AI大佬互怼系列五篇｜幻觉、优化、涌现、印记及高维诅咒

扫码加群，

链接智库！

AI平方范式智库

修改于

继续滑动看下一个

AI2Paradigm

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

OpenAI 新一代o1推理模型发布之际，“Scaling What”问题再思考｜LLM范式迁移、强化学习及其它

楔子

人类智能Human Intelligence发展中的第二个突破：强化学习RL

AI发展的不同阶段需要范式不同

模型智能行为塑造决定数字神经网络工程的scaling what

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

OpenAI 新一代o1推理模型发布之际，“Scaling What”问题再思考｜LLM范式迁移、强化学习及其它

楔子

人类智能Human Intelligence发展中的第二个突破：强化学习RL

AI发展的不同阶段需要范式不同

模型智能行为塑造决定数字神经网络工程的scaling what

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡